load("02_17_m5s_forum_text_cleaned_unique.RData")

vulgar_terms <- c('sti cazzi', 'arrapato', 'arrapata', 'bagascia', 'bagasce','baldracca',
                  'bastardo', 'bastarda', 'battona', 'bocchino', 'sbocchinare',
                  'cacare', 'cagare', 'cagna', 'cappella', 'cazzata', 'cazzo',
                  'cazzi', 'cazzone', 'cesso', 'checca', 'coglione', 'cogliona',
                  'cretino', 'culo', 'escremento', 'fava', 'fica', 'figa', 'fesso',
                  'figlio di puttana', 'figlia di puttana', 'finocchio', 'fregna', 'frocio', 'gnocca',
                  'incazzarsi', 'inculo', 'inculare', 'leccaculo', 'merda', 'merdaiolo',
                  'merdata', 'merdina', 'merdone', 'merdosamente', 'meretrice', 'mignotta',
                  'minchiata', 'omosessuale', 'palle', 'paracula', 'paraculo', 'pisciata',
                  'pompino', 'puttana', 'puttanata', 'rompicoglioni', 'rompipalle',
                  'sborra', 'sborrare', 'scassacazzo', 'scopare', 'scoreggia', 'sega',
                  'segaiolo', 'sfiga', 'sfigato', 'sfottere', 'sgualdrina',
                  'sgualdrinaccia', 'smerdare', 'sputtanare', 'stronza', 'stronzo', 'stupido',
                  'testa di minchia', 'troia', 'troiaio', 'vacca', 'vaccata', 'vaffanculo',
                  'zoccola')
vulgar_sex_terms <- c('arrapato', 'arrapata', 'bagascia', 'bagasce',
                      'baldracca',
                      'battona', 'bocchino', 'sbocchinare',
                      'cagna', 'cappella', 'checca',
                      'fava', 'fica', 'figa',
                      'finocchio', 'fregna', 'frocio', 'gnocca',
                      'inculo', 'inculare', 
                      'meretrice', 'mignotta',
                      'omosessuale','pompino', 'puttana',
                      'sborra', 'sborrare', 'scopare','sega',
                      'segaiolo','sgualdrina',
                      'sgualdrinaccia', 'troia', 'vacca',
                      'zoccola')

countWordOccurrences <- function (text, dict) { # pass to sapply
  tokens <- strsplit(tolower(text), " ")[[1]]
  return(sum(tokens %in% dict))
}

forum_text$n_vulgar <- sapply(forum_text$text, countWordOccurrences, vulgar_terms, USE.NAMES=FALSE)
forum_text$n_sexual <- sapply(forum_text$text, countWordOccurrences, vulgar_sex_terms, USE.NAMES=FALSE)

save(forum_text, file="~/r_data/forum_text_wt_aggres.RData")
